Например, Бобцов

Алгоритм выявления синтезированного голоса на основе кепстральных коэффициентов и сверточной нейронной сети

Аннотация:

Предмет исследования. Рассмотрены существующие подходы для выявления синтетической речи, базирующиеся на проблемах синтезирования голосовой последовательности. Представлено описание этапов и итоговая схема алгоритма выявления спуфинг-атак на голосовые биометрические системы. Основное внимание уделено обнаружению синтезированного голоса как наиболее опасного вида атак. Создан программный комплекс для проведения экспериментальных исследований, представлена его структура. Метод. Предложен алгоритм выявления синтезированного голосового образа. Алгоритм основан на использовании мел-частотных и Q-константных кепстральных коэффициентов для извлечения речевых признаков. Для построения модели пользователя использована модель гауссовых смесей. В качестве классификатора для принятия решения о подлинности голоса выбрана сверточная нейронная сеть. Основные результаты. Для сопоставления выбраны два базовых решения противодействия спуфинг-атакам, предложенные авторами конкурса ASVspoof2019. В одном из решений в качестве извлекаемых речевых признаков использованы линейно-частотные кепстральные коэффициенты, в другом — Q-константные. В обоих решениях в качестве классификатора применена модель гауссовых смесей. Для оценки эффективности предложенного решения и сравнения его с другими выбраны метрики EER и minDCF и сформирована голосовая база. Экспериментальные результаты продемонстрировали преимущество разработанного алгоритма перед другими рассмотренными вариантами. Достоинство представленного решения — применение извлекаемых речевых признаков, имеющих высокие результаты и для идентификации пользователя. Это позволяет оптимизировать голосовую биометрическую систему с внедренной защитой от спуфинг-атак посредством синтеза голоса. Сам алгоритм при внесении незначительных модификаций может быть использован для голосовой идентификации. Практическая значимость. Голосовые биометрические системы имеют высокий потенциал применения в банковской сфере. Такие системы позволят финансовым организациям ускорить и упростить осуществление денежных операций, и предоставить пользователям расширенный функционал в удаленном режиме. Внедрение систем голосовой биометрической идентификации осложняется их уязвимостью для спуфинг-атак, в частности посредством синтеза голоса. Предложенное решение может быть интегрировано в системы голосовой биометрии с целью повышения их надежности.

Ключевые слова:

Статьи в номере